Building systems that achieve a deeper understanding of language is one of the central goals of natural language processing (NLP). Towards this goal, recent works have begun to train language models on narrative datasets which require extracting the most critical information by integrating across long contexts. However, it is still an open question whether these models are learning a deeper understanding of the text, or if the models are simply learning a heuristic to complete the task. This work investigates this further by turning to the one language processing system that truly understands complex language: the human brain. We show that training language models for deeper narrative understanding results in richer representations that have improved alignment to human brain activity. We further find that the improvements in brain alignment are larger for character names than for other discourse features, which indicates that these models are learning important narrative elements. Taken together, these results suggest that this type of training can indeed lead to deeper language understanding. These findings have consequences both for cognitive neuroscience by revealing some of the significant factors behind brain-NLP alignment, and for NLP by highlighting that understanding of long-range context can be improved beyond language modeling.
translated by 谷歌翻译
切成薄片的Wasserstein(SW)距离已在不同的应用程序场景中广泛使用,因为它可以缩放到大量的支撑量,而不会受到维数的诅咒。切成薄片的瓦斯坦距离的值是通过radon变换(RT)获得的原始度量的一维表示(投影)之间运输成本的平均值。尽管估计切成薄片的瓦斯坦族的支持效率,但仍需要在高维环境中进行相对较大的预测。因此,对于与维度相比,支撑次数相对较少的应用,例如,使用微型批量方法的几个深度学习应用,radon transform的矩阵乘法中的复杂性成为主要计算瓶颈。为了解决这个问题,我们建议通过线性和随机组合少量的预测来得出预测,这些预测被称为瓶颈预测。我们通过引入层次ra transform(HRT)来解释这些投影的用法,该层rad rad transform(HRT)是通过递归应用radon变换变体构建的。然后,我们将方法制定为措施之间的新指标,该指标命名为分层切片瓦斯坦(HSW)距离。通过证明HRT的注入性,我们得出了HSW的指标。此外,我们研究了HSW的理论特性,包括其与SW变体的联系及其计算和样品复杂性。最后,我们将HSW的计算成本和生成质量与常规SW进行比较,使用包括CIFAR10,Celeba和Tiny Imagenet在内的各种基准数据集进行深层生成建模的任务。
translated by 谷歌翻译
集体感知是群体机器人技术中的基本问题,在该机器人技术中,群体必须就环境的连贯代表达成共识。集体感知的一个重要变体将其视为最佳决策过程,在该过程中,群体必须从一组替代方案中确定最有可能的代表。过去对这种变体的工作主要集中在表征不同的算法如何在群体必须决定最频繁的环境特征的情况下如何导航速度-VS-Accuracy折衷。至关重要的是,过去在最佳决策中的工作使机器人传感器是完美的(无噪声和故障),从而限制了这些算法的现实适用性。在本文中,我们从第一个原理中得出了一个最佳的,概率的框架,用于配备有缺陷的传感器的简约群机器人。然后,我们在群体共同决定某个环境特征的频率的情况下验证了我们的方法。我们研究了有关几个感兴趣的参数的决策过程的速度和准确性。即使存在严重的感觉噪声,我们的方法也可以提供及时,准确的频率估计。
translated by 谷歌翻译
会话问题生成(CQG)是机器通过对话等人类(例如交互式阅读理解)的重要任务。与传统的单转交问题(SQG)相比,CQG更具挑战性的意义,即生成的问题不仅需要有意义,而且要与发生的对话历史保持一致。虽然先前的研究主要集中于如何建模对话的流量和对齐,但迄今为止,尚无对模型必需部分和历史的部分进行全面的研究。我们认为,缩短上下文和历史是至关重要的,因为它可以帮助该模型对对话的一致性进行更多优化。为此,我们提出了一个两阶段CQG框架COHS-CQG,该框架采用COHS模块来缩短输入的上下文和历史记录。特别是,COHS选择连续的句子,并根据其相关性得分通过顶级P策略转弯。我们的模型在答案感和答案环境中都可以在COQA上实现最先进的表演。
translated by 谷歌翻译
只有在模型在大规模的多语言环境中培训的情况下,才有可能在无监督的机器翻译(UMT)上进行无监督的机器翻译(UMT),这意味着有能力的无监督翻译(例如尼泊尔或辛哈拉)的胜任的不受监督的翻译,例如尼泊尔或辛哈拉语。与高资源对应物混合。尽管如此,尽管高资源语言极大地帮助启动了目标低资源翻译任务,但它们之间的语言差异可能会阻碍他们的进一步改进。在这项工作中,我们提出了一个简单的完善程序,以将语言与预先训练的多语言UMT模型相关联,以仅关注目标低资源任务。我们的方法在完全无监督的翻译任务中实现了最新的尼泊尔,僧伽罗,古吉拉特语,拉脱维亚,爱沙尼亚和哈萨克的最新技术,分别为3.5、3.3、3.3、4.1、4.2、4.2和3.3。我们的代码库可从https://github.com/nxphi47/refine_unsup_multlingual_mt获得
translated by 谷歌翻译
传统的切成薄片的瓦斯汀定义在两个具有矢量的概率度量之间。当比较图像的两个概率度量时,从业人员首先需要使用样品矩阵和投影矩阵之间的矩阵乘法来矢量化图像,然后将它们投影到一维空间。之后,通过平均两种相应的一维投影概率度量来评估切片的瓦斯汀。但是,这种方法有两个局限性。第一个限制是,图像的空间结构不会通过矢量化步骤有效地捕获。因此,后来的切片过程变得越来越难以收集差异信息。第二个限制是内存效率低下,因为每个切片方向是具有与图像相同的尺寸的向量。为了解决这些局限性,我们提出了针对基于卷积算子的图像的概率度量,用于切成薄片的新型切片方法。我们通过将步幅,扩张和非线性激活函数纳入卷积算子来得出卷积切成薄片的Wasserstein(CSW)及其变体。我们研究了CSW的指标及其样品复杂性,其计算复杂性以及与常规切片的Wasserstein距离的联系。最后,我们证明了CSW在比较图像和训练图像上的深层生成模型中的概率度量方面的良好性能比传统切成薄片的Wasserstein相比。
translated by 谷歌翻译
寻求信息丰富的投影方向是利用切片的瓦斯坦距离在应用中的重要任务。但是,找到这些方向通常需要在投影方向的空间上进行迭代优化程序,这在计算上很昂贵。此外,在深度学习应用中,计算问题甚至更为严重,其中重复了两次小批次概率度量之间的距离。这个嵌套的环路一直是阻止基于良好预测在实践中的良好预测的切片瓦斯汀距离的主要挑战之一。为了应对这一挑战,我们建议利用学习到优化的技术或摊销优化,以预测任何给定的两种微型批次概率措施的信息方向。据我们所知,这是桥梁摊销优化和切成薄片的生成模型的第一部作品。特别是,我们得出了线性摊销模型,广义线性摊销模型和非线性摊销模型,这些模型对应于三种类型的新型迷你批次损失,称为摊销的切片瓦斯坦。我们证明了在标准基准数据集中深层生成模型中提出的切片损失的良好性能。
translated by 谷歌翻译
估计具有有限样本的2个高维分布之间的发散的问题是各种领域的重要问题,例如机器学习。虽然以前的方法以中等维度数据执行良好,但它们的准确性开始在具有100多个二进制变量的情况下降低。因此,我们建议使用可分解模型来估算高维数据的分歧。这些允许我们将高维分布的估计密度分解成较低尺寸函数的产物。我们进行正式和实验分析,探讨在分歧估算的背景下使用可分解模型的性质。为此,我们凭经验展示使用来自最大似然估计器的可分解模型来估计Kullback-Leibler分歧,优于在可以从可用数据中学习高度和有用的可分解模型的情况下发散估计的现有方法。
translated by 谷歌翻译